[レポート] Improve data lake workload performance with Apache Iceberg on Amazon S3 #AWSreInvent

AWS re:Invent 2024

2024.12.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

 はじめにラスベガスで開催されているre:Invent2024も2日目となりました。

Keynoteに合わせて人が増えるのか、会場もセッションもかなり人が増えた印象があります。
今朝のKeynoteでS3 Tableの発表があったのでIcebergについて情報収集したいと思っていたところ、ちょうどよいセッションがあったのでWalkupで飛び入り参加してきました。
 セッション概要Improve data lake workload performance with Apache Iceberg on Amazon S3
原文
It is critical for data-driven businesses today to manage price performance for streaming, data lakes, analytics, and AI/ML workloads as they grow to petabytes scale. AWS customers are increasingly using Apache Iceberg across their technology stacks as a single source of truth to manage their data. This chalk talk uses production examples to walk you through Iceberg tooling and AWS best practices to drive operational efficiency and query performance optimization for your workloads on Amazon S3.
日本語訳(機械翻訳)
今日のデータ駆動型ビジネスにとって、ストリーミング、データレイク、アナリティクス、AI/MLのワークロードがペタバイト規模に成長するにつれて、その価格パフォーマンスを管理することは非常に重要です。AWSのお客様は、データを管理するための単一の真実のソースとして、テクノロジースタック全体でApache Icebergを使用することが増えています。このチョークトークでは、Amazon S3上のワークロードの運用効率とクエリパフォーマンスの最適化を推進するためのIcebergツールとAWSのベストプラクティスについて、実例を用いて説明します。
 SpeakersOleg Lvovitch, Principa, Principal Engineer, AWS
Anupriti Warade, Senior Product Manager-Technical, AWS
 セッション内容アジェンダです
DWHを利用しているユーザーの課題とIcebergの利点、Icebergが使用できるAWSサービスの例が共有されました。
続いてIceberg形式のテーブルについて説明がありました。

Iceberg初心者にはありがたい内容でした。
https://iceberg.apache.org/spec/#specification
続くデモでは、AthenaからIceberg形式のテーブルを作成し、S3に作成されたマニフェストファイルの中身やデータファイルを参加者と一緒に確認するといったことを行いました。
また、Icebergテーブルのメンテナンスやコンパクションについてデモを交えながら説明がありました。


以下のブログで行っている確認をデモで実施していた感じです。

https://dev.classmethod.jp/articles/amazon-athena-iceberg-vacuum-optimize-s3-data-file-layout/
そして最後、発表されたばかりのS3 Tablesの紹介がありました。

独自でIceberg形式のテーブルを管理するよりも多くのメリットがありそうです。
最大で3倍のクエリパフォーマンス、最大で10倍のTPS性能
簡単なアクセスコントロール
メンテナンスの自動化
 おわりに以上、Chalk Talkの「Improve data lake workload performance with Apache Iceberg on Amazon S3」のセッションレポートでした。
S3 Tableについては公式のブログもご参照ください。

https://aws.amazon.com/jp/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
新しく発表されたAmazon S3メタデータ(Preview)についてはこちらのブログを御覧ください。

https://dev.classmethod.jp/articles/amazon-s3-bucket-metadata-preview/